Modelos de equações estruturais

Aula 2 — Análise Fatorial Exploratória

Estatístico — CONRE 1ª Região Nº 11477

Motivação e contexto

Retomando a ideia de maldição da dimensionalidade…

  • Quando existem um número expressivo de variáveis correlacionadas, é possível que elas estejam medindo a mesma coisa.

  • Para resolver esta questão, lançaremos mão do conceito de variáveis latentes

  • Num contexto em que se busca medir Gestão de documentos e Gestão de conhecimento, podem existir fatores observáveis que meçam conjuntamente e indiretamente estas características de interesse.

Na regressão, modelamos \(Y\) em função de \(\boldsymbol{X}\) (\(Y \sim \boldsymbol{X}\))

Em análise fatorial (AF), iremos modelar \(\boldsymbol{X} \sim F\), onde \(F\) é latente.

O modelo clássico

\[\boldsymbol{x-\mu = \Phi f + \epsilon}\] tal que:

  • \(x\) é vetor de variáveis observadas;

  • \(\Phi\) é a matriz de cargas fatoriais (pesos);

  • \(f\) é vetor de fatores latentes;

  • \(\epsilon\) é vetor de erros específicos.

Intuição e pressupostos:

As cargas fatoriais seriam pesos, ou seja, a importância que cada construto tem na determinação do valor de cada variáveis, enquanto os erros específicos seriam a parte da variável que não é explicada pelos fatores comuns, podendo ser interpretada como erro de medida.

Pressupostos (clássicos) do modelo

Seguindo o paradigma da identificabilidade,

  • \(E(\boldsymbol{f}) = 0\) e \(E(\boldsymbol{\epsilon}) = 0\);

  • \(Cov(\boldsymbol{f}) = \Phi = I_m\) (fatores comuns não correlacionados);

  • \(Cov(\epsilon) = \Psi = diag\{\psi_1,...,\psi_p\}\)

  • \(Cov(\boldsymbol{f}, \boldsymbol{\epsilon}) = 0\).

Desta forma,

\[\Sigma = \Phi \Phi^T + \Psi\]

Mais detalhes e demonstrações aqui

Interpretações e glossário pertinente

Podemos então decompor a variância de cada \(\boldsymbol{X}_i\), tal que:

\[Var(X_i) = \phi_{i1}^2+...+\phi_{im}^2 + \psi_i,\]

onde as parcelas \(\phi_{ij}\) advém das cargas fatoriais, e \(\psi_i\) do erro específico.

Desta forma, podemos já adotar o glossário usual da literatura:

Carga fatorial:

é a correlação entre a variável observada e a variável latente.

Comunalidade:

  • Variância explicada pelos fatores, definida por \(h_i^2=\sum_{j=1}^m\phi^2_{ij}\)

Epecificidade

  • Parte da variância de \(x_i\) que não é explicada pelos fatores comuns \(\Phi\), dado simplesmente por: \(\psi_i = 1 - h_i^2\) (variável padronizada, com variância 1).

Estimação e número de fatores

Esta seção será breve, pois não é nosso objetivo específico neste projeto.

  • Como o cliente já tem um modelo SEM “pronto” (ou seja, o número de fatores já está definido), não entraremos em detalhes. Caso precisem, consultem os materiais: 1 e 2, ou livros: ARTES, R.; BARROSO, L. P. Métodos multivariados de análise estatística. [S.l.]: São Paulo: Blucher, 2023; JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Analysis. [S.l.]: 6. ed.[S.l.]:Prentice Hall, 2007.

  • Note que esta parte é fundamental em projetos que necessitem de análise fatorial exploratória, portanto não podem ser ignorada em outro projeto com esta outra natureza.

  • Métodos de estimação também são explicados nos materiais, mas por hora vamos nos contentar com as implementações disponíveis em R, nos pacotes psych, factoextra e lavaan.

Rotações (lembram do queijo?)

  • As rotações visam facilitar a interpretação dos fatores extraídos, buscando uma estrutura mais simples e clara.

  • Em estatística, costumamos utilizar a rotação varimax, que assume grande parte dos pressupostos.

  • Em geral, em ciências humanas, a rotação mais adotada é a promax, mais flexível nos casos em que os fatores tem correlação.

  • Algumas rotações possíveis amplamente implementadas nos pacotes de AF são varimax, quartimax, oblimin e varimax.

  • Notem que em geral existem duas implementações no R para a promax, em geral sob os alias promax e Promax. A diferença entre elas é que a promax (minúsculo) realiza uma normalização específica (Kaiser) antes de aplicar a rotação, que é o procedimento aparentemente adotado pelo SPSS, por vezes mais utilizado que o R no contexto de ciências humanas. É pertinente adotar este procedimento em alguns casos, para garantir que os resultados sejam comparáveis com os eventualmente adotados pelo pesquisador. Consulte a documentação dos pacotes nestes casos para ter certeza.

Por fim…

  • Portanto, análise fatorial exploratória é um modelo genuinamente estatístico; e não apenas uma transformação.

  • Em AFE, o modelo é descoberto. Em AFC, o modelo é testado.

  • Na próxima aula, trataremos de AFC, onde iremos impor uma estrutura em \(\Phi\).

  • Desta forma, poderemos dizer que AFC é uma AFE restrita

Por hoje é só!

Dúvidas?

Feedbacks?